학습목표

  1. merge & join 함수 활용하기
In [ ]:
import numpy as np
import pandas as pd

dataframe merge

  • SQL의 join처럼 특정한 column을 기준으로 병합

    • join 방식: how 파라미터를 통해 명시
      • inner: 기본값, 일치하는 값이 있는 경우
      • left: left outer join
      • right: right outer join
      • outer: full outer join
  • pandas.merge 함수가 사용됨

In [ ]:
customer = pd.DataFrame({'customer_id' : np.arange(6), 
                    'name' : ['철수'"", '영희', '길동', '영수', '수민', '동건'], 
                    '나이' : [40, 20, 21, 30, 31, 18]})

customer
In [ ]:
orders = pd.DataFrame({'customer_id' : [1, 1, 2, 2, 2, 3, 3, 1, 4, 9], 
                    'item' : ['치약', '칫솔', '이어폰', '헤드셋', '수건', '생수', '수건', '치약', '생수', '케이스'], 
                    'quantity' : [1, 2, 1, 1, 3, 2, 2, 3, 2, 1]})
orders.head()
  • on
    • join 대상이 되는 column 명시
In [ ]:
 
  • index 기준으로 join하기
In [ ]:
 

연습문제

  1. 가장 많이 팔린 아이템은?
  2. 영희가 가장 많이 구매한 아이템은?
In [ ]:
 

join 함수

  • 내부적으로 pandas.merge 함수 사용
  • 기본적으로 index를 사용하여 left join
In [ ]: